The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
可进入的模型可以通过在表示理论和特征领域的语言中制定均衡性要求来提供非常通用和灵活的均衡性,这对许多视觉任务都是有效的。但是,由于3D旋转的数学更复杂,因此在2D情况下得出3D旋转模型要困难得多。在这项工作中,我们采用部分差分运算符(PDOS)来模型3D滤波器,并得出了通用的可检测3D CNN,称为PDO-S3DCNNS。我们证明,模棱两可的过滤器受线性约束的约束,可以在各种条件下有效地解决。据我们所知,PDO-S3DCNNS是3D旋转的最通用的CNN,因为它们涵盖了所有$ SO(3)$及其表示的所有常见子组,而现有方法只能应用于特定的组和特定组和表示。广泛的实验表明,我们的模型可以很好地保留在离散域中的均衡性,并且在SHREC'17检索和ISBI 2012分割任务上的表现都超过了以前的网络复杂性。
translated by 谷歌翻译
RNA结构的确定和预测可以促进靶向RNA的药物开发和可用的共性元素设计。但是,由于RNA的固有结构灵活性,所有三种主流结构测定方法(X射线晶体学,NMR和Cryo-EM)在解决RNA结构时会遇到挑战,这导致已解决的RNA结构的稀缺性。计算预测方法作为实验技术的补充。但是,\ textit {de从头}的方法都不基于深度学习,因为可用的结构太少。取而代之的是,他们中的大多数采用了耗时的采样策略,而且它们的性能似乎达到了高原。在这项工作中,我们开发了第一种端到端的深度学习方法E2FOLD-3D,以准确执行\ textit {de de novo} RNA结构预测。提出了几个新的组件来克服数据稀缺性,例如完全不同的端到端管道,二级结构辅助自我鉴定和参数有效的骨干配方。此类设计在独立的,非重叠的RNA拼图测试数据集上进行了验证,并达到平均sub-4 \ aa {}根平方偏差,与最先进的方法相比,它表现出了优越的性能。有趣的是,它在预测RNA复杂结构时也可以取得令人鼓舞的结果,这是先前系统无法完成的壮举。当E2FOLD-3D与实验技术耦合时,RNA结构预测场可以大大提高。
translated by 谷歌翻译
复杂的水下环境为物体检测带来了新的挑战,例如未平衡的光条件,低对比度,阻塞和水生生物的模仿。在这种情况下,水下相机捕获的物体将变得模糊,并且通用探测器通常会在这些模糊的物体上失败。这项工作旨在从两个角度解决问题:不确定性建模和艰难的例子采矿。我们提出了一个名为Boosting R-CNN的两阶段水下检测器,该检测器包括三个关键组件。首先,提出了一个名为RetinArpn的新区域建议网络,该网络提供了高质量的建议,并考虑了对象和IOU预测,以确定对象事先概率的不确定性。其次,引入了概率推理管道,以结合第一阶段的先验不确定性和第二阶段分类评分,以模拟最终检测分数。最后,我们提出了一种名为Boosting Reweighting的新的硬示例挖掘方法。具体而言,当区域提案网络误认为样品的对象的事先概率时,提高重新加权将在训练过程中增加R-CNN头部样品的分类损失,同时减少具有准确估计的先验的简易样品丢失。因此,可以在第二阶段获得强大的检测头。在推理阶段,R-CNN具有纠正第一阶段的误差以提高性能的能力。在两个水下数据集和两个通用对象检测数据集上进行的全面实验证明了我们方法的有效性和鲁棒性。
translated by 谷歌翻译
遮挡对人重新识别(Reid)构成了重大挑战。现有方法通常依赖于外部工具来推断可见的身体部位,这在计算效率和Reid精度方面可能是次优。特别是,在面对复杂的闭塞时,它们可能会失败,例如行人之间的遮挡。因此,在本文中,我们提出了一种名为M质量感知部分模型(QPM)的新方法,用于遮挡鲁棒Reid。首先,我们建议共同学习零件特征和预测部分质量分数。由于没有提供质量注释,我们介绍了一种自动将低分分配给闭塞体部位的策略,从而削弱了遮挡体零落在Reid结果上的影响。其次,基于预测部分质量分数,我们提出了一种新颖的身份感知空间关注(ISA)模块。在该模块中,利用粗略标识感知功能来突出目标行人的像素,以便处理行人之间的遮挡。第三,我们设计了一种自适应和有效的方法,用于了解来自每个图像对的共同非遮挡区域的全局特征。这种设计至关重要,但经常被现有方法忽略。 QPM有三个关键优势:1)它不依赖于培训或推理阶段的任何外部工具; 2)它处理由物体和其他行人引起的闭塞; 3)它是高度计算效率。对闭塞Reid的四个流行数据库的实验结果证明QPM始终如一地以显着的利润方式优于最先进的方法。 QPM代码将被释放。
translated by 谷歌翻译
许多真实应用程序的预测任务需要在用户的事件序列中模拟多阶特征交互以获得更好的检测性能。然而,现有的流行解决方案通常遭受两个关键问题:1)仅关注特征交互并无法捕获序列影响;2)仅关注序列信息,但忽略每个事件的内部特征关系,因此无法提取更好的事件表示。在本文中,我们考虑使用用户的事件顺序捕获分层信息的两级结构:1)基于基于事件表示的学习有效特征交互;2)建模用户历史事件的序列表示。工业和公共数据集的实验结果清楚地表明,与最先进的基线相比,我们的模式实现了更好的性能。
translated by 谷歌翻译
近年来,已经通过对比学习方法的进展来开发了基于骨架的动作识别的自我监督的代表学习。现有的对比学习方法使用正常的增强来构建类似的正样品,这限制了探索新颖运动模式的能力。在本文中,为了更好地利用极端增强引入的运动模式,提出了利用对自我监督动作表示(AIMCLR)的丰富信息挖掘的对比学习框架。首先,提出了极端的增强和基于能量的注意力指导模块(EADM)来获得各种阳性样本,这带来了新的运动模式来改善学习陈述的普遍性。其次,由于直接使用极端增强可能无法提高由于原始身份的剧烈变化导致的性能,因此提出了双分配发散最小化损失(D $ ^ 3 $ M损失),以最大限度地减少更温和的分配分配大大地。第三,提出了最近的邻居挖掘(NNM)以进一步扩展正样品以使丰富的信息挖掘过程更合理。 NTU RGB + D 60的详尽实验,PKU-MMD,NTU RGB + D 120数据集已经验证,我们的AIMCLR可以在各种评估协议下对最先进的方法进行有利的方法,以观察到更高质量的作用表示。我们的代码可在https://github.com/levigty/aimclr中找到。
translated by 谷歌翻译
被遮挡的人重新识别是一个具有挑战性的任务,因为某些场景中的某些障碍(例如树木,汽车和行人)封闭人体部分。一些现有的姿势引导方法通过根据图形匹配对准身体部位来解决这个问题,但这些基于图的方法不直观和复杂。因此,我们提出了一种基于变压器的姿态引导特征解除留出(PFD)方法,通过利用姿势信息来清楚地解散语义部件(例如人体或关节部件)并相应地选择性地匹配非封闭部分。首先,视觉变压器(VIV)用于提取具有强大功能的贴片功能。其次,为了从补丁信息预先解散姿势信息,匹配和分配机制在姿势引导特征聚合(PFA)模块中利用。第三,在变压器解码器中引入了一组学习的语义视图,以隐式增强解除戒备的身体部位特征。然而,没有额外监督,那些语义视图并不保证与身体相关。因此,提出了姿势视图匹配(PVM)模块以明确匹配可见的身体部位并自动分离遮挡功能。第四,为了更好地防止闭塞的干扰,我们设计了一个姿势引导的推动损失,强调了可见的身体部位的特征。对于两个任务(封闭和整体RE-ID)的五个具有挑战性的数据集进行了广泛的实验表明,我们提出的PFD具有优越的承诺,这对最先进的方法表现了有利的方法。代码可在https://github.com/wangtaoas/pfd_net上获得
translated by 谷歌翻译
声音事件检测(SED)在监控,视频索引等中的广泛应用程序上获得了越来越长的关注。SED中的现有模型主要产生帧级预测,将其转换为序列多标签分类问题。基于帧的模型的一个关键问题是它追求最佳的帧级预测而不是最佳的事件级预测。此外,它需要后处理,无法以端到端的方式培训。本文首先介绍了一维检测变压器(1D-DETR),受到图像对象检测的检测变压器的启发。此外,鉴于SED的特征,音频查询分支和用于微调的一对多匹配策略将模型添加到1D-DETR以形成声音事件检测变压器(SEDT)。据我们所知,Sedt是第一个基于事件和最终的SED模型。实验在城市 - SED数据集和DCES2019任务4数据集上进行,两者都表明席克可以实现竞争性能。
translated by 谷歌翻译
As one of the most important psychic stress reactions, micro-expressions (MEs), are spontaneous and transient facial expressions that can reveal the genuine emotions of human beings. Thus, recognizing MEs (MER) automatically is becoming increasingly crucial in the field of affective computing, and provides essential technical support in lie detection, psychological analysis and other areas. However, the lack of abundant ME data seriously restricts the development of cutting-edge data-driven MER models. Despite the recent efforts of several spontaneous ME datasets to alleviate this problem, it is still a tiny amount of work. To solve the problem of ME data hunger, we construct a dynamic spontaneous ME dataset with the largest current ME data scale, called DFME (Dynamic Facial Micro-expressions), which includes 7,526 well-labeled ME videos induced by 671 participants and annotated by more than 20 annotators throughout three years. Afterwards, we adopt four classical spatiotemporal feature learning models on DFME to perform MER experiments to objectively verify the validity of DFME dataset. In addition, we explore different solutions to the class imbalance and key-frame sequence sampling problems in dynamic MER respectively on DFME, so as to provide a valuable reference for future research. The comprehensive experimental results show that our DFME dataset can facilitate the research of automatic MER, and provide a new benchmark for MER. DFME will be published via https://mea-lab-421.github.io.
translated by 谷歌翻译